查看原文
其他

Cereb Cortex︱王群/胡文瀚/王茜团队合作揭示受言语可懂度调控的两阶段听皮层加工机制

徐娜等 逻辑神经科学 2023-03-10


撰文徐娜,罗路,王茜

责编︱王思珍

辑︱杨彬伟


言语包络(envelope)包含对言语内容识别和理解的关键信息[1, 2],因此考察言语包络的神经表征对于我们理解言语加工尤为重要。我们的大脑,特别是听觉皮层的活动,可以动态精准地追随言语的包络成分[3],也被称为“包络追随反应”(envelope tracking)。一些研究提示听皮层包络追随反应的强度可能在一定程度上反映对言语的加工[4-6],然而,听皮层的活动也被发现可以很好地追随没有言语可懂度的声音(例如时间上颠倒的语句和音乐)包络成分[7-9]。那么,听皮层包络追随反应的强度是否受到言语可懂度的调控,尚不清晰。

2022年6月13日,首都医科大学附属北京天坛医院神经病学中心王群教授、北京市神经外科研究所胡文瀚副主任医师,与北京大学心理与认知科学学院、IDG麦戈文脑科学研究所王茜助理研究员合作在Cerebral Cortex杂志在线发表题为“Two stages of speech envelope tracking in human auditory cortex modulated by speech intelligibility”的研究论文,研究发现言语可懂度调控听皮层两个阶段的包络追随反应:早期的high-γ60-140 Hz)幅值和晚期的θ4-8 Hz)相位。



为了解决这一困惑,研究者构思去考察具有相同包络成分但却不同可懂度的语句的听皮层神经表征。研究者引入了噪声合成(noise-vocoding)的技术[10],在尽可能地保留言语包络成分的基础上而不断衰减精细结构成分。这一过程是根据设置滤波频带数,而在滤波后将每个频带内的精细结构替换成相同频谱噪声的精细结构来实现的(图1)。改变噪声合成的滤波频带数可以有效调控言语可懂度:随着滤波频带数的减少,噪声合成语句的可懂度逐渐降低,以往行为学的研究[11]表明少于4个滤波频带的噪声合成语句不再有可懂度。本研究采用的2个频带的噪声合成语句(natural speech,NV)不具有可懂度,但却与自然语句(natural speech,Nat)具有高度一致的包络成分(相关系数为0.99)(图1)


图1 噪声合成语句的构建流程图

(图源:Xu, et al.Cereb Cortex, 2022)


以往电生理的研究显示听皮层低频和高频的振荡活动都可以追随言语的包络成分,尤其体现在低频θ(4-8 Hz)的相位(phase)[12]和高频high-γ(60-140 Hz)的幅值(power)[13, 14]。鉴于头皮记录的手段很难获得人类听皮层的high-γ活动,本研究利用的颅内脑电图(stereo-electroencephalogram,sEEG)记录手段(图2A)是癫痫评估手术中的“金标准”,是目前具有最高时空分辨率组合且直接记录人类大脑活动的技术,可以忠实记录到听皮层的神经活动。研究者聚焦high-γ幅值和θ相位对语句包络的追随,发现两者具有不同的追随特性(图2B-K):high-γ表现出较短的追随延迟时间(< 100 ms),偏好于噪声合成语句;而θ表现出较长的追随延迟时间(> 100 ms),且偏好于自然语句。这些结果提示high-γ幅值和θ相位助力语句加工的不同阶段。


图2 听皮层high-γ幅值和θ相位的包络追随反应

(图源:Xu, et al.Cereb Cortex, 2022)


进一步地,听皮层的high-γ幅值和θ相位是否可以作为可靠的神经标志物来解码语句?研究者引用支持向量机(support vector machines,SVM)的分类模型[15],分别以听皮层单试次反应的high-γ幅值、θ相位为模型特征,对自然语句和噪声合成语句进行解码(图3)。结果发现high-γ幅值的解码准确性在初级听皮层较高,这与其较短的追随延迟一致;θ相位的解码准确性表现出右半球偏侧化;并且θ相位的解码准确性显著高于high-γ幅值的。结果进一步提示high-γ幅值和θ相位存在功能上的分离:前者反映了对简短的声学特征的快速自动化加工,而后者则与言语可懂度所促进的缓慢的逐步建立的加工相关。


图3 以high-γ幅值或θ相位为模型特征对自然语句和噪声合成语句进行解码

(图源:Xu, et al.Cereb Cortex, 2022)


文章结论与讨论,启发与展望

该研究利用难治型癫痫患者的sEEG,直接记录了人类听皮层对两个具有一致包络成分但却完全不同可懂度的语句(自然语句、噪声合成语句)的神经活动。研究发现言语可懂度调控听皮层两个阶段的包络追随反应:早期的high-γ(60-140 Hz)幅值偏好噪声合成语句,而晚期的θ(4-8 Hz)相位偏好自然语句。本研究为不同频段的神经活动助力言语加工的不同阶段提供了颅内脑电证据。在未来的研究工作中,可以引入注意成分来考察high-γ幅值和θ相位又是如何受到注意调控的,并结合行为学数据进一步构建神经电活动与言语理解的联系


原文链接:https://doi.org/10.1093/cercor/bhac203


该研究获得了国家重点研发计划,科技创新2030-重大项目,国家自然科学基金面上项目,首都卫生发展科研专项和北京自然科学基金重点项目的资助。


王群(左),王茜(中),胡文瀚(右)

(照片提供自:王群/王茜/胡文瀚团队)


作者简介(上下滑动阅读)  


徐娜(首都医科大学附属北京天坛医院神经病学中心)为本论文第一作者;王群(首都医科大学附属北京天坛医院神经病学中心)、胡文瀚(北京市神经外科研究所)和王茜(北京大学心理与认知科学学院、IDG麦戈文脑科学研究所)为本论文通讯作者;赵宝田(首都医科大学附属北京天坛医院神经外科)和罗路(北京体育大学心理学院)为本论文做重要贡献。该论文受到了张凯(首都医科大学附属北京天坛医院神经外科)、邵晓秋(首都医科大学附属北京天坛医院神经病学中心)和栾国明(首都医科大学附属北京三博脑科医院神经外科)几位教授的大力支持。




人才招聘
【1】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)【2】“ 逻辑神经科学 ”诚聘副主编/编辑/运营岗位(在线办公)【3】“ 逻辑神经科学 ”诚聘编辑/运营岗位 ( 在线办公)
往期文章精选【1】Nat Neurosci︱表征研究突破!疼痛个体的大脑表征差异【2】Front Aging Neurosci︱樊东升团队聚焦NK细胞在帕金森病中的病理作用【3】Neurosci Bull︱郑芳课题组揭示星形胶质细胞来源的HMGB1在实验性自身免疫性脑脊髓炎中的重要作用【4】J Neurosci︱叶冰研究组揭示大脑皮层增厚过程的分子机制【5】Sci Adv︱杨雄里院士团队揭示自感光视网膜神经节细胞在近视形成中的重要作用【6】Front Cell Dev Biol | 黄志超团队在唐氏综合症发育过程中寻找关键神经病变【7】Nature︱去甲肾上腺素在学习过程中的双重作用【8】Nat Neurosci︱刘胜/刘奕志/向孟清团队研究证实成年灵长类存在活跃的神经发生现象【9】Alzheimers Dement︱申勇团队提出中国阿尔兹海默病的血液诊断新标准【10】Mol Psychiatry︱石云/杨建军/柳娜团队揭示谷氨酸受体缺陷引起人类攻击行为的新机制
优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会 8月6-7日 腾讯会议



参考文献(上下滑动阅读) 

[1] Shannon RV, Zeng FG, Kamath V, Wygonski J, Ekelid M. Speech recognition with primarily temporal cues. Science. 1995:270:303–304.

[2] Smith ZM, Delgutte B, Oxenham AJ. Chimaeric sounds reveal dichotomies in auditory perception. Nature. 2002:416: 87–90.

[3] Poeppel D, Assaneo MF. Speech rhythms and their neural foundations. Nat Rev Neurosci. 2020:21:322–334.

[4] Di Liberto GM, Crosse MJ, Lalor EC. 2018. Cortical measures of phoneme-level speech encoding correlate with the perceived clarity of natural speech. eNeuro. 5.

[5] Vanthornhout J, Decruy L, Wouters J, Simon JZ, Francart T. 2018. Speech intelligibility predicted from neural entrainment of the speech envelope. J Assoc Res Otolaryngol. 19:181-191.

[6] Etard O, Reichenbach T. 2019. Neural speech tracking in the theta and in the delta frequency band differentially encode clarity and comprehension of speech in noise. J Neurosci. 39:5750-5759.

[7] Howard MF, Poeppel D. 2010. Discrimination of speech stimuli based on neuronal response phase patterns depends on acoustics but not comprehension. J Neurophysiol. 104:2500-2511.[8] Doelling KB, Poeppel D. 2015. Cortical entrainment to music and its modulation by expertise. Proc Natl Acad Sci U S A. 112:E6233-6242.[9]  Harding EE, Sammler D, Henry MJ, Large EW, Kotz SA. 2019. Cortical tracking of rhythm in music and speech. Neuroimage. 185:96-101.[10] Davis MH, Johnsrude IS, Hervais-Adelman A, Taylor K, McGettigan C. 2005. Lexical information drives perceptual learning of distorted speech: evidence from the comprehension of noise-vocoded sentences. J Exp Psychol Gen. 134:222-241.[11] Davis MH, Johnsrude IS. 2003. Hierarchical processing in spoken language comprehension. J Neurosci. 23:3423-3431.[12] Luo H, Poeppel D. 2007. Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex. Neuron. 54:1001-1010.[13] Kubanek J, Brunner P, Gunduz A, Poeppel D, Schalk G. 2013. The tracking of speech envelope in the human cortex. PLoS One. 8:e53398.[14] Zion Golumbic EM, Ding N, Bickel S, Lakatos P, Schevon CA, McKhann GM, Goodman RR, Emerson R, Mehta AD, Simon JZ, Poeppel D, Schroeder CE. 2013. Mechanisms underlying selective neuronal tracking of attended speech at a “cocktail party”. Neuron. 77:980-991.[15] Hsu CW, Chang CC, Lin CJJ. 2003. A practical guide to support vector classification.

本文完


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存